ПРО//ЧТЕНИЕ - Технологический конкурс UP GREAT

ПРО //

ЧТЕНИЕ

Результаты испытаний каждого цикла

На этой странице публикуются итоги испытаний завершенных циклов конкурса и результаты прошедших номинаций. О методике оценки – ниже в инфографике с картинками. Если у вас останутся вопросы по тому, как оценивается работа искусственного интеллекта, то напишите нам на challenges@upgreat.one.

Победители конкурса

Победители конкурса в первом цикле не выявлены

DeepPavlov

МФТИ

Английский язык

1 место

Наносемантика

Нейросети Ашманова

Английский язык

2 место

Антиплагиат

Арусский язык

победитель

Победители и призеры номинаций

Ракета

МФТИ, МГУ

Номинация

Грамматика

1 место

Антиплагиат

АО «Антиплагиат»

Номинация

Грамматика

2 место

Chemist

МФТИ

Номинация

Грамматика

3 место

НейроЧтение

DeepPavlov

Номинация

Грамматика.ENG

1 место

Антиплагиат

АО «Антиплагиат»

Номинация

Грамматика.ENG

2 место

Наносемантика

Нейросети Ашманова

Номинация

Грамматика.ENG

3 место

Наносемантика

Нейросети Ашманова

Номинация

Структура

1 место

Антиплагиат

АО «Антиплагиат»

Номинация

Структура

2 место

РХТУ AI

РХТУ

Номинация

Структура

3 место

Антиплагиат

АО «Антиплагиат»

Номинация

Логика

1 место

РХТУ AI

РХТУ

Номинация

Логика

2 место

FirstTry

Номинация

Логика

3 место

РЕЗУЛЬТАТЫ ИСПЫТАНИЙ

Цикл 1

Цикл 2

Цикл 3

Лидерборд показывает рейтинг команд, принявших участие в испытаниях конкурса ПРО//ЧТЕНИЕ, включая текущие номинации цикла, и уровень точности, достигнутый их ИИ-решениями.

Место

Команда

Регион, город

Среднее время обработки файла, с.

Доля успешно обработанных файлов, %

ОТАР, %

Относительная точность алгоритмической разметки (ОТАР) определяется по заданной выборке эссе как отношение ОТАР = CTAP / СТЭР * 100%

Антиплагиат

Москва

3.09

100

100.138

Наносемантика

Москва

6.13

100

92.933

Крылья

Москва

9.30

100

84.651

PG7

Москва

2.17

99.4

83.593

Organoid AGI

Москва

12.69

100

58.173

Как оценивается работа искусственного интеллекта?

На основании большого количества критериев работа искусственного интеллекта (ИИ) сопоставляется с работой двух независимых экспертов,? в результате чего определяется точность решений участников. Ниже представлен упрощенный алгоритм оценки работы ИИ. Подробнее об этапах оценки, критериях и формулах можно прочитать в Техническом регламенте.

Этап 1

Отбор эссе для испытаний

Для оценки работы систем участников (ИИ-ассистентов) собраны эссе?на различные тематики, которые нигде ранее не публиковались.

1 000

эссе

Этап 2

Проверка текстов экспертами и ИИ

Для обеспечения объективности оценки тексты проверяют сразу два эксперта ЕГЭ. Система участников и эксперты в условиях ограниченного времени оценивают тексты по 4 аспектам:

Логика

Повествование не нарушено, выводы следуют из аргументов и т. д.

Факты

Верно описаны реальные факты и исторические события (даты, имена, описание событий и др.)

Грамматика

Нет ошибок в написании слов и предложений

Стилистика

Уместное употребление слов различной окраски или стилистики, метафор, сравнений

Эксперты и система создают специальную разметку текста, указывая на ошибки и выделяя значимые для оценки блоки. При необходимости можно получить пояснение о причинах маркировки ошибки.

Этап 3

Определение точности работы ИИ

Разметки экспертов и ИИ попарно сравниваются друг с другом на основании ряда критериев, у каждого из которых есть свой установленный вес (важность) при оценке точности работы.

Пример разметки текста в результате проверки эссе по истории

Искусственный интеллект

30 сек. на эссе

Причиной реформ Сперанского послужила необходимость совершенствования системы власти. Формирование органа парламентского типа было одним из шагов по превращению самодержавия в конституционную монархию. В 1810 г. был создан госсовет с совещательными функциями.

Оценка
Следствие Роль

И.Факт Сяп

Эксперт 1

15 мин. на эссе

И.Причин

Сяп

Эксперт 2

15 мин. на эссе

Причина

Верно ли система участников оценила текстовый блок?

В среднем ИИ оценил эссе немного хуже экспертов ЕГЭ

Разберем подробнее:

Предложение 1

В первом предложении эксперты дали противоположные оценки, а ИИ совпал с одним из экспертов. В этом предложении ИИ провел работу на уровне экспертов.

Предложение 2

Второе предложение эксперты не посчитали значимым для оценки эссе, тогда как ИИ выделил его. ИИ ошибся, отметив блок, не имеющий ценности для выставления оценки.

Предложение 3

В оценке третьего предложения ИИ сошелся с одним из экспертов, но неверно отметил фактическую ошибку. В среднем ИИ провел оценку текстового блока чуть хуже экспертов.

На практике точность ИИ оценивается по специальным формулам

Они учитывают оценки системы и экспертов по каждому отдельному предложению, текстовому блоку и тексту в целом

Система участника считается достаточно точной, если полученная разметка отличается от экспертных меньше, чем экспертные друг от друга (коэффициент ОТАР больше или равен 100%). Чем выше коэффициент, тем точнее работа ИИ.

В КОНКУРСЕ ПОБЕЖДАЕТ КОМАНДА С САМЫМ ВЫСОКИМ КОЭФФИЦИЕНТОМ ОТАР, РАВНЫМ ИЛИ ПРЕВЫШАЮЩИМ 100%

Итоги награждения

Дополнительная информация

Конкурс ПРО//ЧТЕНИЕ проходит в формате повторяющихся циклов испытаний до тех пор, пока не будет решена задача конкурса, но не позднее 30 декабря 2022 года.

Если в текущем цикле одна из команд разработала ИИ-систему для анализа текстов на русском языке, решающую задачу конкурса, то в следующем цикле конкурс пройдет только для текстов на английском языке. И, наоборот.

Следующий цикл испытаний пройдет весной 2021 года. Регистрация открыта.

Зарегистрироваться